Reproductibilité de la recherche:
enjeux et bonnes pratiques

Caroline Patenaude
Bibliothèque des lettres et sciences humaines

2020-11-01

Reproductibilité de la recherche:
enjeux et bonnes pratiques

Objectifs

Formation 1

Formation 2

La “crise” de la reproductibilité

La “crise” de la reproductibilité

Ioannidis, 2005

La “crise” de la reproductibilité

Débordement dans la “culture populaire”

Débordement dans la “culture populaire”

Constat #1 : l’article ne suffit plus

“an article about computational result is advertising, not scholarship. The actual scholarship is the full software environment, code and data, that produced the result.” Claerbout cité par in Buckheit and Donoho, 1995

Principe à la base de la reproductibilité est que l’unité traditionnelle de la diffusion scientifique, ie l’article publié, n’est que la pointe de l’iceberg du processus de recherche.

The Scientific Paper Is Obsolete. Here’s what’s next

Constat #2 : les données ne suffisent plus non plus


“Open is not enough”

“[…¸] openness alone does not guarantee reproducibility or reusability, so it should not be pursued as a goal in itself. Focusing on data is also not enough: it needs to be accompanied by software, workflows and explanations, all of which need to be captured throughout the usual iterative and closed research lifecycle, ready for a timely open release with the results.”


Le partage de jeux de données est nécessaire à la reproductibilité, mais n’en est pas garant:

Pas capable de l’ouvrir!

Comprend rien!

Marche pas!

Smarty Pants What Is This GIF from Smartypants GIFs

Reproductibilité? Réplicabilité? Répétabilité? De quoi parle-t-on?



En résumé (Barba, 2018):

Reproducible: Authors provide all the necessary data and the computer codes to run the analysis again, re-creating the results.

Replication: A study that arrives at the same scientific findings as another study, collecting new data (possibly with different methods) and completing new analyses.


Bref, une recherche est reproductible si tout le matériel (documentation, analyses, données, code) est rendu disponible de façon à ce qu’un chercheur indépendant soit en mesure de reproduire les résultats originaux.


À noter, en sciences sociales (qualitatives), on parle généralement plus de “réflexivité” que de reproductibilité, c’est à dire “soumettre à une analyse critique non seulement sa propre pratique scientifique (opérations, outils et postulats), mais également les conditions sociales de toute production intellectuelle”. Rui


Voir The Turing Way

Reproductibilité? Réplicabilité? Répétabilité? De quoi parle-t-on?

Petit historique:

“Our basic goal is reproductible research. The electronic document is our means to this end”.

“reproducibility of experiments in seismic exploration requires having the complete software environment available in other laboratories and the full source code available for inspection, modification, and application under varied parameter settings.”

“The replication of important findings by multiple independent investigators is fundamental to the accumulation of scientific evidence. Researchers in the biologic and physical sciences expect results to be replicated by independent data, analytical methods, laboratories, and instruments.”

MAIS, toutes les recherches ne sont pas “réplicables”…

“An attainable minimum standard is “reproducibility,” which calls for data sets and software to be made available for verifying published findings and conducting alternative analyses."

Donc, elles devraient être au minimum “reproductibles”.

La reproductibilité comme spectrum


Reproducible Research in Computational Science, Peng, 2011


Certains vont plus loin en distinguant différents types de reproductibilité: empirique, méthodologique, statistique, informatique, … Stodden, 2018


La reproductibilité n’est pas gage de “résultats scientifiques”, mais de transparence. Les “mauvaises analyses” peuvent aussi être reproductibles!

Les causes de la “crise”

Les causes de la “crise”

Initiatives pour changer les “cultures scientifiques”

Les solutions

INIS - Cycle de vie des données

Les bénéfices de la reproductibilité

Quelques bonnes pratiques


De quoi aurait besoin un collègue qui voudrait reproduire mes résultats sans mon aide?


Quelques bonnes pratiques


5 volets essentiels à considérer:

  1. Planifier
  2. Organiser
  3. Documenter
  4. Automatiser
  5. Diffuser

Bonne pratique #1: Planifier!

Bonne pratique #2: Organiser!



Faut penser dès le départ à un système pour gérer ses fichiers.


Les fichiers vont s’accumuler, évoluer avec le temps tout comme les relations entre eux.


Il faut donc s’armer contre le chaos!


Bonne pratique #2: Organiser!

2.1 Créer un dossier Projet contenant tous les fichiers

Bonne pratique #2: Organiser!

2.2 Règles de nommage de fichiers

Conseils de base :

Bonne pratique #2: Organiser!

2.2 Règles de nommage de fichiers

Bonne pratique #2: Organiser!

2.3 Contrôle des versions

Définir des procédures de gestion de versions de l’ensemble de ses fichiers

  1. Le problème peut se gérer grâce aux règles de nommage.
  2. Mais pour un contrôle plus serré de projet plus volumineux, utiliser un outil de versionnage comme Git (dropbox et Google Drive offre un contrôle de versions minimal).

Voir Happy Git and GitHub for the useR

Bonne pratique #3: Documenter/commenter!

Tout, tout, tout documenter

*La plupart des logiciels ont un grand nombre de dépendances qui peuvent entrainer des conflits si l’installation n’est pas identique. Dans R il est essentiel d’inclure son sessionInfo() mais ne signale pas toutes les dépendances système de plus haut niveau. Il existe des outils plus sophistiqués pour les identifier (gestionnaires de paquets comme Packrat pour R, outils de “conteneurs logiciels” comme Docker…)

Bonne pratique #3: Documenter/commenter!

Voir Open and Reproducible Science with R

Bonne pratique #4: Automatiser!

Bonne pratique #4: Automatiser!

Chemin absolu vs relatif

Bonne pratique #4: Automatiser!

Problems with using Microsoft Excel for Statistical Analysis & Graphics

Bonne pratique #4: Automatiser++!

Adopter la méthode du litterate programming (programmation lettrée)

Treat program as literature to be understandable to human beings

Document reliant les résultats, le code qui les a générés et les commentaires qui expliquent chacune des étapes : La source et le chargement données, les modifications et analyses effectuées et les résultats obtenus > toute la chaine peut ainsi être reproduite.

Bonne pratique #5: Diffuser!

5.1. Pourquoi « ouvrir » ses données?

– De plus en plus d’éditeurs et d’organismes le suggèrent ou même l’obligent.

– Communauté scientifique le demande de plus en plus.

– Recherche de meilleure qualité avec meilleure visibilité.


Quelques conseils :

DRYAD - FAIR Data

Bonne pratique #5: Diffuser!

5.2. Diffuser des données bien structurées

*Attention car le transfert en format texte peut entrainer des pertes d’information sur les variables. Il est conseillé de créer un dictionnaire de codes pour décrire ses variables (peut être automatisé).

Principes de Tidy Data (Hadley Wickham)

6. Choisir de bons outils

Plusieurs outils de programmation peuvent être utilisés pour améliorer la reproductibilité de ses analyses. L’important est de choisir un language qui permet à la fois d’automatiser ET documenter ses analyses.

Références